TECHNICAL REPORT ON LEE SUBMISSION: SOUND EVENT DETECTION USING CONFORMER AND ATST FRAMEWORK FOR DCASE CHALLENGE 2024 TASK 4
ベースラインに加えて
事前学習済みモデルの種類が多い?
Conformerなどが増えている
畳み込み層で局所を,アテンションで全体の特徴を捉えるという根幹の発想は同じ
少し構造が複雑に見えた
?
実際,同じ学習手法だと精度はどうなるのだろう?